iT邦幫忙

2023 iThome 鐵人賽

DAY 2
1

Data Vault 簡介

Data Vault(資料金庫?以下簡稱DV)是一種資料架構模型和技巧,而主要是為了組織大規模且高擴展性(Scalability)的資料倉庫(Data Warehouse)。DV 2.0是原作者在2013年為了適用數據處理上的一些新最佳實踐(Best Practice)而翻新與優化過的版本。由於新項目基本上不會考慮使用DV 1.0,本文就直接跳過。

相對於Kimball、Inmon、或其他常見的資料倉庫的設計,DV在設計和運用都會比較嚴格而規定性,也在實施上上比較複雜。如果沒有需要解決以下問題的資料倉儲項目,可能套用比較簡單的Kimball會更適合:

  • 大量資料源(50~100資料源庫、100~1000源表)
  • 多數開發人員(20+ 同時貢獻者)
  • 二代以上的原數據版本

顧名思義,Data Vault有點像一個資料的大金庫,所有進來的資料都會被整理到一個個小保險箱裡,有需要時各個團隊可以再從金庫裡來提取。DV的設計上運用了高重用性(reusability)與模塊化(modularity)的資料模型與源資料的集中管理,而完成擴展性強的數據倉儲系統。

在後續的幾篇文章內,會再分享具體DV理論上的設計原則,用dbt如何實踐,與分享一些實際案例上的考量!

參考

Building a Scalable Data Warehouse with Data Vault 2.0:DV發明者Daniel Linstedt與Michael Olschimke的原作,對DV 2.0有興趣的朋友可以參考


上一篇
Story Points:淺談敏捷式開發運用到數據團隊實用上的問題
下一篇
用dbt建構Data Vault 2.0:2 淺談DV 模型組件
系列文
實用Modern Data Stack:資料架構案例分析與分享30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言